由简入繁探究机器视觉中的数据增强（上）

Original 闫秋女刘曼霞壁仞科技研究院 2023-02-18

摘要

深度学习在图像分类、分割及识别任务上取得了显著的成果，但其严重依赖大规模数据集来防止网络过拟合。针对该问题，一个研究趋势是通过图像数据增强提高训练样本的数量和多样性。本文将列举图像数据增强方法大致两大类，从传统图像增强到前沿图像增强来介绍各种方法理论，并分析该方法的优劣势。因整体篇幅较长，此次研究分为两部分。本篇为第一部分，主要研究和分析传统图像数据增强方法。在后续的第二部分中，将继续对前沿图像增强方法展开分析，总结神经网络中的图像数据增强方法的同时，讨论目前面临的挑战及未来可研究的技术方向。

引言

深度学习在多领域百花齐放，并取得了显著的进步，诸如计算机视觉（CV），推荐系统（RS）及自然语言处理等等。这些领域的发展受以下三个方面的影响：深度网络结构、算力以及数据集大小。首先，网络结构的规模通常与其泛化能力成正比。其次，随着大算力的支持，网络结构可以变得更深、更广。最后，如Imagenet[1]、COCO[2]、PASCAL VOC[3]等足够大的公开数据集加速了深度学习模型的发展。但事实上，足够大的公开数据集受实验难度、具体任务影响，其数据的充分性和多样性缺少统一的量化指标。所以这三个方面的发展是不均衡的：对于不同CV任务而言，大多数工作集中在提出各种先进网络结构及提高图形处理单元（GPU）的算力上，探索使用数据增强方法来生成的训练数据的工作相对逊色。

图像增强后的数据可以看作是从接近真实分布的分布中提取的，并且一定程度上增加了数据的充分性和多样性[4]，可以表示更全面的特征。但是图像数据增强方法仍然存在一些挑战。比如，图像数据增强可以应用于图像分类、分割及检测等视觉任务上，但由于对图像数据和标签的操作是同时进行的，且不同任务下的标签类型不同，因此目标检测任务的数据增强方法不能直接应用于语义分割任务，这限制图像数据增强效率和扩展性；其次，生成的训练数据的大小通常是根据个人经验和大量实验设计的，导致数据增强后的训练数据集的规模缺乏量化的标准。在本次研究中，我们大致总结两大类的图像增强方法。从传统图像增强到前沿图像增强展开讨论并思考未来可研究的技术方向。此篇为上篇，将主要阐述各种传统图像数据增强方法并分析其优劣势。

传统图像数据增强方法

基本图像增强方法

传统图像增强方法主要集中在图像变换上，如平移、旋转和擦除等，如表1、图1分别所示。Cutout[5]作为一种简单的正则化技术，在训练卷积神经网络 (CNN) 期间随机屏蔽输入的方形区域提高 CNN 的鲁棒性和整体性能。基于Cutout方法，Zhong 等人提出了随机擦除[6]，即随机选择图像中的一个矩形区域，并将其像素替换为随机值。这些方法大多直接对图像层面进行直接操作，操作简单且易于实现。但是，图像处理方法仅在现有数据服从或接近实际数据分布的假设下应用才有意义。应用于小规模数据集以增加数据的充分性和多样性，效果往往不尽人意。另外，图1所示的平移和旋转操作，会因某些区域移出边界将该区域的像素赋值为0。但实际上，无论如何都不应将感兴趣区域移出边界外，这也是基本的图像处理方法难以避免的局限性。

图1 可视化传统图像增强方法

表1 传统图像增强操作及简要描述

Mixup及改进方法

近年来，基于Mixup的数据增强方式受到越来越多的关注[7]。这些方法主要是将两张、多张图像或者图像的子区域混合到一张图像中。本小节中将详细分析讨论Mixup，并介绍几种典型的改进方法。

图2 可视化Mixup图像增强方法

2017年，Google提出了Mixup图像增强方法[8]。如公式1所示，该操作对样本-标签进行凸组合后生成新的样本-标签数据。因此，Mixup 在数据增强和监督信号之间建立了线性关系，可以正则化神经网络以支持训练样本之间的简单线性行为。增强后的效果图如图2所示。

公式1中，，输入及标签（one-hot编码），即服从参数都为的分布（非负）。

ManifoldMix[9]对Mixup进行扩展，把原始数据（raw data）混合扩展到对中间层输出混合。作者认为这种混合具有三个优势：平滑决策边界、拉大低置信空间（拉开各类别高置信空间的间距）、展平中间隐层输出的数值。

2019年，Yun等人在Mixup的基础上提出了CutMix[10]。与 Mixup 相比，CutMix 不是简单地删除像素或混合图像，而是从图像空间的角度考虑，将一张图像上的某个随机矩形区域剪裁到另一张图像上，以生成更自然的图像如图3所示。标签的处理和Mixup是一样的，都是按照新样本中两个原样本的比例确定新的混合标签的比例。这种新的处理更适合图像中信息连续性这个特点，在论文实验中也表示该方法获得了比Mixup更好的试验效果。但是CutMix合成的图片可能剪裁块正好来自于源图片的非感兴趣区域或者正好把目标图片的感兴趣区域遮挡，这将造成生成的标签与图像不匹配。

图3 可视化CutMix图像增强方法

如图4所示，PatchUp[11]借鉴ManifoldMix和CutMix，对中间隐层输出进行空间维度剪裁，即对两个不同样本的中间隐层剪裁块进行互换或插值，文中互换法分为硬patchUp，插值法为软patchUp。实验证明互换法可获得更高的识别精度；插值法可获得更强的鲁棒性。

图4 PatchUp增强示意图[11]

Fmix[12]在CutMix基础上改进，对傅里叶空间采样的低频图像应用阈值而获得的各种形状的随机二进制掩码。如图5所示，Fmix把剪裁区域的形状从矩形转换为不规则形状，增加了数据样本空间规模。论文证明了在CIFAR-10数据集上，Fmix可获得比Mixup和CutMix更高的分类性能，但作者未对其有效性进行深入的理论分析。

图5 PatchUp增强示意图[12]

基于CutMix的不足，PuzzleMix[13]和SaliencyMix[14]都在CutMix基础上加入了显著性分析，其方法示意图如图6所示。PuzzleMix和SaliencyMix都计算各样本图像的显著性区域并剪裁显著性区域。但不同的是PuzzleMix随后加入了一些复杂精细的优化操作。这使得PuzzleMix方法获得了更不错的效果。

图6 可视化PuzzleMix和SaliencyMix图像增强方法

上述方法均对两个样本进行混合。co-Mix[15]从多个样本中提取显著性区域并混合。co-Mix量化显著性，引入超模-子模分析方法，并提出了子模最小化算法在生成图片中累积尽可能多的显著性区域。使得图片能够保证最大的显著性，同时还保持标签的多样性。作者提出的方法具有较强的理论性，但综合多个方法显示，该方法的效果差强人意。

AugMix[16]不是对多个样本进行混合，而是随机从若干个基本增强操作集中选取1~3个操作，然后将这些操作堆叠起来，形成不同深度的操作序列后，按照凸组合的方式融合（类似Mixup）。具体操作流程见图7，文中实验证实该方法的有效性，并得出组合数据增强方法比单一方法更有效的结论。

图7 AugMix图像增强方法[16]

结论与思考

从上述内容可以看出，传统的图像增强方法对于改善图像质量、扩充样本数量上发挥了重要的作用。在实际应用中，不论在操作难度还是效果的角度上，都十分可观。但对于基本图像增强操作，需满足现有数据服从或接近实际数据分布的假设才有意义。应用于小规模数据集以增加数据的充分性和多样性，效果往往不尽人意。Mixup方法本质上是数据无关的数据增强，加强了训练样本之间的线性表达，可以改进网络架构的泛化能力。不可避免地，此类方法会给生成样本带来局部模糊和不自然的问题。CutMix可以改进上述缺点，但很有可能遮挡样本的感兴趣区域，导致在训练过程中信息的缺失和无效。基于此问题，PuzzleMix和SaliencyMix方法都融入了显著性分析，并获得了不错的实验效果。AugMix证实组合数据增强方法比单一方法更有效。然而，针对不同任务不同数据集，如何确定最佳组合方式可达到泛化的效果是我们要持续思考的问题。

此篇为上篇，由于时间关系文中列举的传统图像增强方法并不一定全面，这一部分主要分析传统图像增强各方法及优劣性。下篇内容将主要对前沿图像增强方法展开探讨，最后将总结并分析目前面临的挑战及未来可研究的技术方向。感兴趣的读者欢迎交流。

参考文献

[1] Austin Derrow-Pinion, Jennifer She, David Wong, et al. ETA Predictionwith Graph Neural Networks in Google Maps. 2021

[1] Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M.S., Berg, A.C., & Fei-Fei, L. (2015). ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision, 115, 211-252.

[2] Lin, T., Maire, M., Belongie, S.J., Hays, J., Perona, P., Ramanan, D., Dollár, P., & Zitnick, C.L. (2014). Microsoft COCO: Common Objects in Context. ECCV.

[3] Everingham, M., Eslami, S.M., Gool, L.V., Williams, C.K., Winn, J.M., & Zisserman, A. (2014). The Pascal Visual Object Classes Challenge: A Retrospective. International Journal of Computer Vision, 111, 98-136.

[4] Yang, S., Xiao, W., Zhang, M., Guo, S., Zhao, J., & Furao, S. (2022). Image Data Augmentation for Deep Learning: A Survey. ArXiv, abs/2204.08610.

[5] Devries, T., & Taylor, G.W. (2017). Improved Regularization of Convolutional Neural Networks with Cutout. ArXiv, abs/1708.04552.

[6] Zhong, Z., Zheng, L., Kang, G., Li, S., & Yang, Y. (2020). Random Erasing Data Augmentation. AAAI.

[7] Inoue, H. (2018). Data Augmentation by Pairing Samples for Images Classification. ArXiv, abs/1801.02929.

[8] Zhang, H., Cissé, M., Dauphin, Y., & Lopez-Paz, D. (2018). mixup: Beyond Empirical Risk Minimization. ArXiv, abs/1710.09412.

[9] Verma, V., Lamb, A., Beckham, C., Najafi, A., Mitliagkas, I., Lopez-Paz, D., & Bengio, Y. (2019). Manifold Mixup: Better Representations by Interpolating Hidden States. ICML.

[10] Yun, S., Han, D., Oh, S., Chun, S., Choe, J., & Yoo, Y.J. (2019). CutMix: Regularization Strategy to Train Strong Classifiers With Localizable Features. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), 6022-6031.

[11] Faramarzi, M., Amini, M., Badrinaaraayanan, A., Verma, V., & Chandar, A.P. (2020). PatchUp: A Regularization Technique for Convolutional Neural Networks. ArXiv, abs/2006.07794.

[12] Mancini, A., Bounkari, O.E., Norrenbrock, A., Scherr, M., Schaefer, D., Eder, M., Banham, A.H., Pulford, K., Lyne, L., Whetton, A.D., & Tamura, T. (2007). FMIP controls the adipocyte lineage commitment of C2C12 cells by downmodulation of C/EBPalpha. Oncogene, 26, 1020-1027.

[13] Kim, J., Choo, W., & Song, H.O. (2020). Puzzle Mix: Exploiting Saliency and Local Statistics for Optimal Mixup. ArXiv, abs/2009.06962.

[14] Uddin, A.F., Monira, M.S., Shin, W., Chung, T., & Bae, S. (2021). SaliencyMix: A Saliency Guided Data Augmentation Strategy for Better Regularization. ArXiv, abs/2006.01791.

[15] Munson, K.A. (2020). Co-Mix and Exhibitions: Interview with Art Spiegelman.

[16] Hendrycks, D., Mu, N., Cubuk, E.D., Zoph, B., Gilmer, J., & Lakshminarayanan, B. (2020). AugMix: A Simple Data Processing Method to Improve Robustness and Uncertainty. ArXiv, abs/1912.02781.

往期推荐

1、比大更大：Pathways上实现的大语言模型PaLM

2、推荐场景训练加速：大规模混合分布式系统

3、Kubric：高效地合成视觉数据集

关于壁仞科技研究院

壁仞科技研究院作为壁仞科技的前沿研究部门，旨在研究新型智能计算系统的关键技术，重点关注新型架构，先进编译技术和设计方法学，并将逐渐拓展研究方向，探索未来智能系统的各种可能。壁仞科技研究院秉持开放的原则，将积极投入各类产学研合作并参与开源社区的建设，为相关领域的技术进步做出自己的贡献。

扫码关注我们

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

由简入繁探究机器视觉中的数据增强（上）

基本图像增强方法

Mixup及改进方法

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

生成图片，分享到微信朋友圈

由简入繁探究机器视觉中的数据增强（上）

基本图像增强方法

Mixup及改进方法

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡